 CAPITOLUL 2 ENTROPIE ŞI INFORMAŢIE 2 1 SURSE DE INFORMAŢIE Dacă facem un inventar al tipurilor de mesaje pe care simţim nevoia să le emitem sau să le recepţionăm, constatăm că ele se reduc la următoarele:  Voce, vorbire (mesaj verbal)  Muzică (sunet ca şi vocea, dar de bandă de frecvenţe mai largă)  Imagine, statică sau dinamică (mesaj vizual)  Semne şi simboluri, reprezentând tot un mesaj vizual, dar abstract Doar două simţuri, auzul şi văzul, sunt implicate în aceasta La care se adaugă simţul tactil în cazul orbilor, care folosesc alfabetul Braille În vederea înregistrării, prelucrării şi transmiterii la distanţă, sunetele, imaginile şi simbolurile alfanumerice (litere, numere, semne diacritice şi altele) sunt convertite în semnale electrice, electromagnetice sau optice Atunci când vorbim la telefon, undele sonore produse de organul nostru fonator sunt transformate de microfon într-un curent electric variabil Acest curent electric purtător de mesaj este prelucrat electronic şi transmis pe un canal de telecomunicaţii către telefonul interlocutorului Microfonul este un exemplu de traductor Traductor este un dispozitiv care converteşte o mărime neelectrică într-una electrică sau invers Prin sursă de informaţie vom înţelege orice aparat care, incluzând dacă este cazul şi traductoare, poate genera mesaje în formă electrică — cel mai adesea un curent sau o tensiune DEFINIŢIA 2 1 Prin semnal, înţelegem o mărime fizică a cărei variaţie în timp poate transporta mesaje DEFINIŢIA 2 2 Un semnal s(t) este analogic dacă atât variabila independentă timp t cât şi mărimea semnalului iau valori din mulţimi continue, adică, submulţimi ale mulţimii numerelor reale  DEFINIŢIA 2 3 Un semnal s(t) este digital dacă atât variabila independentă timp t cât şi mărimea semnalului iau valori din mulţimi discrete, adică, submulţimi ale mulţimii numerelor raţionale  Orice semnal analogic se poate transforma în semnal digital în virtutea teoremei eşantionării şi utilizând un convertor analogic-digital Un semnal digital se poate transforma într-un semnal analogic cu ajutorul unui convertor digital-analogic Semnalele permit să fie prelucrate mult mai convenabil în formă digitală decât în formă analogică De aceea, în zilele noastre, semnalele se transmit în formă digitală 2 2 ENTROPIE Entropia este o măsură a incertitudinii noastre cu privire la o variabilă aleatoare Termenul de entropie a fost împrumutat de Shannon din termodinamică, o ramură a fizicii în care fenomenele studiate sunt preponderent probabiliste Pentru un observator exterior, semnalul de ieşire generat de o sursă de informaţie la un moment dat este o variabilă aleatoare O sursă de informaţie discretă emite un şir de litere dintr-un alfabet de L litere posibile, să spunem {𝑥1 , 𝑥2 , ⋯ , 𝑥𝐿 } Presupunem că fiecare literă din acest alfabet are o probabilitate de apariţie 𝑝𝑘 dată: 𝑝𝑘 = 𝑃𝑟(𝑋 = 𝑥𝑘 ), 1 ≤ 𝑘 ≤ 𝐿 unde 𝐿 ∑ 𝑝𝑘 = 1 𝑘=1 DEFINIŢIA 2 4 Entropia unei variabile aleatoare X este mărimea 𝐿 𝐻(𝑋) = − ∑ 𝑝𝑘 log 2 𝑝𝑘 𝑘=1 Se observă că baza logaritmului este 2, ceea ce face ca entropia să se exprime în biţi Spre 1 exemplu, în cazul aruncării în aer a unei monede nemăsluite, Pr(cap) = Pr(ban) = 2 şi H(X) = 1 bit Entropia se poate exprima şi într-o altă bază de logaritmi, spre exemplu numărul transcendent e sau numărul 10, în care caz unitatea de măsură este nat (de la natural) şi, respectiv, hartley (denumită astfel în onoarea lui R V Hartley, cel care, în 1928, a sugerat utilizarea logaritmului drept măsură a informaţiei) Mai remarcăm şi că entropia nu depinde de valorile luate de variabila aleatoare X ci doar de probabilităţile cu care sunt luate aceste valori Ştim că, în teoria funcţiilor de o variabilă reală, funcţia logaritm se defineşte numai pe mulţimi de numere strict pozitive Având însă în vedere că 𝑥 log 𝑥 → 0 pentru 𝑥 → 0, vom adopta convenţia că 0log0=0 Prin urmare, adăugarea unor termeni de probabilitate zero nu schimbă entropia Putem interpreta entropia lui X drept expectaţia (valoarea medie statistică, sau valoarea 1 aşteptată) funcţiei log 2 𝑝 : 𝑋 (𝑥) 1 𝐻(𝑋) = 𝐸 {log 2 } 𝑝𝑋 (𝑥) Entropia este întotdeauna pozitivă: 𝐻(𝑋) ≥ 0 Într-adevăr, întrucât 0 ≤ 𝑝𝑘 ≤ 1 pentru 1 ≤ 𝑘 ≤ 𝐿, urmează că log 2 (1/𝑝𝑘 ) ≥ 0 Fie o variabilă aleatoare X care nu ia decât două valori: 1 cu probabilitate 𝑝 𝑋={ 0 cu probabilitate 1−𝑝 Conform cu relaţia de definiţie, avem: 𝐻(𝑋) = −𝑝 log 2 𝑝 − (1 − 𝑝) log 2 (1 − 𝑝) Aceasta se mai notează şi H(p) Graficul funcţiei H(p) este arătat mai jos 1 0 9 0 8 0 7 0 6 entropie 0 5 0 4 0 3 0 2 0 1 0 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 probabilitate Se observă că entropia este o funcţie concavă de p şi este egală cu 0 pentru p = 0 sau 1 Pentru aceste două valori, variabila nu este aleatoare şi nu există nici o incertitudine, încât este 1 normal ca entropia să fie zero Incertitudinea este maximă pentru 𝑝 = 2, ceea ce corespunde valorii maxime a entropiei 2 3 ENTROPIE COMUNĂ ŞI ENTROPIE CONDIŢIONATĂ Fie două variabile aleatoare de tip discret, X cu rezultatele elementare 𝑥𝑖 , 𝑖 = 1,2, ⋯ , 𝑛 şi Y cu rezultatele elementare 𝑦𝑗 , 𝑗 = 1,2, ⋯ , 𝑚 Considerăm variabila aleatoare compusă (X, Y) care ia valori vectoriale (𝑥𝑖 , 𝑦𝑗 ) cu probabilitatea Pr(𝑥𝑖 , 𝑦𝑗 ), ceea ce se scrie simbolic astfel: (𝑋, 𝑌)~Pr(𝑥, 𝑦) DEFINIŢIA 2 5 Entropia comună a variabilelor aleatoare de tip discret X şi Y este entropia variabilei aleatoare de tip discret (X, Y): 𝑛 𝑚 𝐻(𝑋, 𝑌) = − ∑ ∑ Pr(𝑥𝑖 , 𝑗𝑦 ) log 2 Pr(𝑥𝑖 , 𝑦𝑗 ) 𝑖=1 𝑗=1 Mai putem scrie aceasta şi astfel: 𝐻(𝑋, 𝑌) = −𝐸 log 2 Pr(𝑋, 𝑌) DEFINIŢIA 2 6 Entropia condiţionată 𝐻(𝑋|𝑌) este entropia variabilei aleatoare X condiţionată de realizarea variabilei aleatoare Y: 𝑚 𝑚 𝑛 𝐻(𝑋|𝑌) = ∑ Pr(𝑦𝑗 )𝐻(𝑋|𝑌 = 𝑦𝑗 ) = − ∑ Pr(𝑦𝑗 ) ∑ Pr(𝑥𝑖 |𝑦𝑗 ) log 2 Pr(𝑥𝑖 |𝑦𝑗 ) 𝑗=1 𝑗=1 𝑖=1 𝑚 𝑛 = − ∑ ∑ Pr(𝑥𝑖 , 𝑦𝑗 ) log 2 Pr(𝑥𝑖 |𝑦𝑗 ) 𝑗=1 𝑖=1 Similar 𝑛 𝑚 𝐻(𝑌|𝑋) = − ∑ ∑ Pr(𝑥𝑖 , 𝑦𝑗 ) log 2 Pr(𝑦𝑗 |𝑥𝑖 ) 𝑖=1 𝑗=1 TEOREMA 2 1 (Regula lanţului): 𝐻(𝑋, 𝑌) = 𝐻(𝑋) + 𝐻(𝑌|𝑋) DEMONSTRAŢIE 𝑛 𝑚 𝑛 𝑚 𝐻(𝑋, 𝑌) = − ∑ ∑ 𝑃𝑟(𝑥𝑖 , 𝑦𝑗 ) log 2 (𝑥𝑖 , 𝑦𝑗 ) = − ∑ ∑ 𝑃𝑟(𝑥𝑖 , 𝑦𝑗 ) log 2 𝑃𝑟(𝑥𝑖 ) 𝑃𝑟(𝑦𝑗 |𝑥𝑖 ) 𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑛 𝑚 𝑛 𝑚 = − ∑ ∑ 𝑃𝑟(𝑥𝑖 , 𝑦𝑗 ) log 2 𝑃𝑟(𝑥𝑖 ) − ∑ ∑ 𝑃𝑟(𝑥𝑖 , 𝑦𝑗 ) log 2 𝑃𝑟(𝑦𝑗 |𝑥𝑖 ) 𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑛 = − ∑ 𝑃𝑟(𝑥𝑖 ) log 2 𝑃𝑟(𝑥𝑖 ) 𝑖=1 𝑛 𝑚 − ∑ ∑ 𝑃𝑟(𝑥𝑖 , 𝑦𝑗 ) log 2 𝑃𝑟(𝑦𝑗 |𝑥𝑖 ) = 𝐻(𝑋) + 𝐻(𝑌|𝑋) 𝑖=1 𝑗=1 Similar, avem că: 𝐻(𝑋, 𝑌) = 𝐻(𝑌) + 𝐻(𝑋|𝑌) 2 4 ENTROPIE RELATIVĂ ŞI INFORMAŢIE MUTUALĂ Entropia unei variabile aleatoare X este o măsură a incertitudinii cu privire la X; ea este o măsură a cantităţii de informaţie necesare în medie pentru a descrie variabila aleatoare Am văzut că entropia nu depinde de domeniul de existenţă al lui X, ci doar de distribuţia de probabilitate a lui X În practică, s-ar putea să nu dispunem de adevărata distribuţie de probabilitate a unei variabile aleatoare, astfel încât să fim obligaţi să utilizăm în locul acesteia o distribuţie pe care o considerăm drept adecvată, dar care nu este totuşi decât o aproximaţie a celei reale Entropia relativă este o măsură a diferenţei dintre două distribuţii de probabilitate Să presupunem că mulţimea valorilor pe care le poate lua variabila aleatoare X este {𝑥1 , 𝑥2 , ⋯ , 𝑥𝐿 } Conform adevăratei distribuţii, X ia valoarea 𝑥𝑘 cu probabilitatea 𝑝𝑘 = Pr(𝑋 = 𝑥𝑘 ), dar noi considerăm că ea este 𝑞𝑘 = Pr(𝑋 = 𝑥𝑘 ), 1 ≤ 𝑘 ≤ 𝐿 DEFINIŢIA 2 7 Entropia relativă sau distanţa Kullback-Leibler dintre funcţiile masă de probabilitate p(x) şi q(x) este: 𝐿 𝑝𝑘 𝑝(𝑋) 𝐷(𝑝||𝑞) = ∑ 𝑝𝑘 log 2 = 𝐸𝑝 log 2 𝑞𝑘 𝑞(𝑋) 𝑘=1 0 În această definiţie, utilizăm convenţia, bazată pe continuitatea funcţiei logaritm, că 0 log 𝑞 = 𝑝 0 şi 𝑝 log 0 = ∞ Observăm că entropia relativă astfel definită nu este o veritabilă distanţă între distribuţii căci nu este simetrică şi nu satisface inegalitatea triunghiului Un sistem de telecomunicaţii redus la esenţă este reprezentat mai jos X Y EMIŢĂTOR CANAL RECEPTOR ZGOMOT Emiţătorul generează un şir de simboluri digitale dintr-un alfabet dat Putem interpreta semnalul acesta de ieşire ca pe o VA de tip discret X care, la un moment dat, ia una din cele L litere ale alfabetului 𝑥𝑘 , 𝑘 = 1,2, ⋯ , 𝐿 Din cauza zgomotului electric din canalul de comunicaţie, semnalul care ajunge la receptor este diferit de semnalul de emisie Putem interpreta semnalul de recepţie ca pe o VA de tip discret Y care ia una din cele M litere 𝑦𝑖 , 𝑖 = 1,2, ⋯ , 𝑀 Nu este necesar ca M = L La un moment dat, receptorul observă o valoare 𝑌 = 𝑦𝑖 şi trebuie să determine cantitatea de informaţie pe care apariţia acestui eveniment o furnizează cu privire la evenimentul 𝑋 = 𝑥𝑘 Dacă variabilele aleatoare X şi Y ar fi statistic independente, apariţia lui 𝑌 = 𝑦𝑖 n-ar furniza nici o informaţie cu privire la apariţia evenimentului 𝑋 = 𝑥𝑘 Pe de altă parte, dacă X şi Y ar depinde total una de alta astfel încât apariţia lui 𝑌 = 𝑦𝑖 să determine apariţia lui 𝑋 = 𝑥𝑘 , conţinutul de informaţie nu ar fi altul decât cel furnizat de evenimentul 𝑋 = 𝑥𝑘 DEFINIŢIA 2 8 Prin informaţia mutuală dintre 𝑥𝑘 şi 𝑦𝑖 înţelegem mărimea Pr(𝑥𝑘 |𝑦𝑖 ) 𝐼(𝑥𝑘 ; 𝑦𝑖 ) = log 2 Pr(𝑥𝑘 ) Dacă variabilele aleatoare X şi Y sunt statistic independente, atunci Pr(𝑥𝑘 |𝑦𝑖 ) = Pr(𝑥𝑘 ) şi, deci, 𝐼(𝑥𝑘 ; 𝑦𝑖 ) = 0 Pe de altă parte, dacă apariţia evenimentului 𝑌 = 𝑦𝑖 determină univoc apariţia evenimentului 𝑋 = 𝑥𝑘 , atunci Pr(𝑥𝑘 |𝑦𝑖 ) = 1 şi deci 1 𝐼(𝑥𝑘 ; 𝑦𝑖 ) = log 2 = − log 2 Pr(𝑥𝑘 ) Pr(𝑥𝑘 ) Aceasta este chiar informaţia cu privire la evenimentul 𝑋 = 𝑥𝑘 Din acest motiv, se numeşte auto-informaţia evenimentului 𝑋 = 𝑥𝑘 şi se notează 1 𝐼(𝑥𝑘 ) = log 2 = − log 2 Pr(𝑥𝑘 ) Pr(𝑥𝑘 ) Observăm că un eveniment cu probabilitate ridicată poartă mai puţină informaţie decât un eveniment cu probabilitate scăzută Conform definiţiei probabilităţii comune, avem că Pr(𝑥𝑘 |𝑦𝑖 ) Pr(𝑥𝑘 |𝑦𝑖 )Pr(𝑦𝑖 ) Pr(𝑥𝑘 , 𝑦𝑖 ) Pr(𝑦𝑖 |𝑥𝑘 ) = = = Pr(𝑥𝑘 ) Pr(𝑥𝑘 )Pr(𝑦𝑖 ) Pr(𝑥𝑘 )Pr(𝑦𝑖 ) Pr(𝑦𝑖 ) De unde rezultă că 𝐼(𝑥𝑘 ; 𝑦𝑖 ) = 𝐼(𝑦𝑖 ; 𝑥𝑘 ) În cuvinte: informaţia furnizată de apariţia evenimentului 𝑌 = 𝑦𝑖 cu privire la evenimentul 𝑋 = 𝑥𝑘 este egală cu informaţia furnizată de apariţia evenimentului 𝑋 = 𝑥𝑘 cu privire la evenimentul 𝑌 = 𝑦𝑖 DEFINIŢIA 2 9 Informaţia mutuală I(X; Y) este entropia relativă dintre distribuţia comună Pr𝑋𝑌 (𝑥, 𝑦) şi distribuţia produs Pr𝑋 (𝑥)Pr𝑌 (𝑦): 𝐿 𝑀 Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) 𝐼(𝑋; 𝑌) = ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 = 𝐷(Pr𝑋𝑌 (𝑥, 𝑦)||Pr𝑋 (𝑥)Pr𝑌 (𝑦)) Pr𝑋 (𝑥𝑘 )Pr𝑌 (𝑦𝑖 ) 𝑘=1 𝑖=1 Putem rescrie informaţia mutuală astfel: 𝐿 𝑀 Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) 𝐼(𝑋, 𝑌) = ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 Pr𝑋 (𝑥𝑘 )Pr𝑌 (𝑦𝑖 ) 𝑘=1 𝑖=1 𝐿 𝑀 Pr𝑋𝑌 (𝑥𝑘 |𝑦𝑖 ) 𝐼(𝑋, 𝑌) = ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 Pr𝑋 (𝑥𝑘 ) 𝑘=1 𝑖=1 𝐿 𝑀 𝐿 𝑀 𝐼(𝑋; 𝑌) = − ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 Pr𝑋 (𝑥𝑘 ) + ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 Pr𝑋𝑌 (𝑥𝑘 |𝑦𝑖 ) 𝑘=1 𝑖=1 𝑘=1 𝑖=1 𝐿 𝐿 𝑀 𝐼(𝑋; 𝑌) = − ∑ Pr𝑋 (𝑥𝑘 ) log 2 Pr𝑋 (𝑥𝑘 ) − (− ∑ ∑ Pr𝑋𝑌 (𝑥𝑘 , 𝑦𝑖 ) log 2 Pr𝑋𝑌 (𝑥𝑘 |𝑦𝑖 )) 𝑘=1 𝑘=1 𝑖=1 𝐼(𝑋; 𝑌) = 𝐻(𝑋) − 𝐻(𝑋|𝑌) Cu cuvinte: informaţia mutuală 𝐼(𝑋; 𝑌) este reducerea incertitudinii cu privire la X datorită cunoaşterii lui Y Prin simetrie, avem şi că 𝐼(𝑋; 𝑌) = 𝐻(𝑌) − 𝐻(𝑌|𝑋) Conform regulii lanţului, avem: 𝐼(𝑋; 𝑌) = 𝐻(𝑋) + 𝐻(𝑌) − 𝐻(𝑋, 𝑌) Observăm că 𝐼(𝑋; 𝑋) = 𝐻(𝑋) − 𝐻(𝑋|𝑋) = 𝐻(𝑋) În cuvinte: informaţia mutuală a unei variabile aleatoare cu ea însăşi este entropia variabilei aleatoare Acesta este motivul pentru care entropia se mai numeşte şi auto-informaţie 2 5 INEGALITATEA LUI JENSEN DEFINIŢIA 2 10 O funcţie f(x) se spune că este convexă pe un interval (a, b) dacă pentru orice 𝑥1 , 𝑥2 ∈ (𝑎, 𝑏) şi 0 ≤  ≤ 1 avem că 𝑓(𝑥1 + (1 − )𝑥2 ) ≤ 𝑓(𝑥1 ) + (1 − )𝑓(𝑥2 ) DEFINIŢIA 2 11 O funcţie f(x) se spune că este strict convexă dacă egalitatea are loc numai pentru  = 0 sau  = 1 DEFINIŢIA 2 12 O funcţie f(x) este concavă dacă −𝑓(𝑥) este convexă O funcţie este convexă dacă se situează sub orice coardă O funcţie este concavă dacă se situează deasupra oricărei corzi TEOREMA 2 2 Dacă funcţia 𝑓(𝑥) are o derivată a doua care este nenegativă (pozitivă) pe tot domeniul de definiţie, ea este convexă (strict convexă) DEMONSTRAŢIE Dezvoltăm funcţia în serie Taylor în jurul unui punct 𝑥0 : 𝑓 ′′ (𝑥 ∗ ) 𝑓(𝑥) = 𝑓(𝑥0 ) + 𝑓 ′ (𝑥0 )(𝑥 − 𝑥0 ) + (𝑥 − 𝑥0 )2 2 x 𝑥∗ 𝑥0 x unde 𝑥 ∗ este între 𝑥0 şi x Prin ipoteză, 𝑓 ′′ (𝑥 ∗ ) ≥ 0 astfel încât ultimul termen este nenegativ pentru orice x f(x) x1+(1-)x2, f(x1)+(1-)f(x2) x2, f(x2) x1, f(x1) x1+(1-)x2, f(x1+(1 -)x2) x 0 Fie 𝑥0 = 𝑥1 + (1 − )𝑥2 Pentru 𝑥 = 𝑥1 , obţinem: 𝑓(𝑥1 ) ≥ 𝑓(𝑥0 ) + 𝑓 ′ (𝑥0 )[(1 − )(𝑥1 − 𝑥2 )] Pentru 𝑥 = 𝑥2 , avem: 𝑓(𝑥2 ) ≥ 𝑓(𝑥0 ) + 𝑓 ′ (𝑥0 )[(𝑥2 − 𝑥1 )] Înmulţind prima inegalitate cu  şi cea de a doua inegalitate cu (1 − ) iar apoi adunând, obţinem 𝑓(𝑥1 + (1 − )𝑥2 ) ≤ 𝑓(𝑥1 ) + (1 − )𝑓(𝑥2 ) TEOREMA 2 3 (Inegalitatea lui Jensen): Dacă 𝑓(𝑥) este o funcţie convexă iar X este o variabilă aleatoare, avem 𝐸𝑓(𝑋) ≥ 𝑓(𝐸𝑋) Mai mult decât atât, dacă 𝑓(𝑥) este strict convexă, egalitatea din relaţia de mai sus implică faptul că X = EX cu probabilitate 1, adică, X este o constantă DEMONSTRAŢIE Vom demonstra teorema prin inducţie matematică după numărul de evenimente din spaţiul de probabilitate Pentru o distribuţie de probabilitate cu două evenimente elementare, inegalitatea se scrie 𝑝1 𝑓(𝑥1 ) + 𝑝2 𝑓(𝑥2 ) ≥ 𝑓(𝑝1 𝑥1 + 𝑝2 𝑥2 ) Având în vedere că 𝑝1 + 𝑝2 = 1, aceasta urmează direct din definiţia funcţiilor convexe Să presupunem că teorema este adevărată pentru distribuţii de probabilitate cu 𝑘 − 1 evenimente elementare Pentru o distribuţie cu k evenimente elementare, avem 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑘 = 1 Din această egalitate, rezultă imediat că 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑘−1 = 1 1 − 𝑝𝑘 Notăm cu 𝑝𝑖′ = 𝑝𝑖 /(1 − 𝑝𝑘 ) pentru 𝑖 = 1,2, ⋯ , 𝑘 − 1 Avem atunci succesiv 𝑘 𝑘−1 ∑ 𝑝𝑖 𝑓(𝑥𝑖 ) = 𝑝𝑘 𝑓(𝑥𝑘 ) + ∑ 𝑝𝑖 𝑓(𝑥𝑖 ) = 𝑖=1 𝑖=1 𝑘−1 𝑘−1 = 𝑝𝑘 𝑓(𝑥𝑘 ) + (1 − 𝑝𝑘 ) ∑ 𝑝𝑖′ 𝑓(𝑥𝑖 ) ≥ 𝑝𝑘 𝑓(𝑥𝑘 ) + (1 − 𝑝𝑘 )𝑓 (∑ 𝑝𝑖′ 𝑥𝑖 ) ≥ 𝑖=1 𝑖=1 𝑘−1 𝑘 ≥ 𝑓 (𝑝𝑘 𝑥𝑘 + (1 − 𝑝𝑘 ) ∑ 𝑝𝑖′ 𝑥𝑘 ) = 𝑓 (∑ 𝑝𝑖 𝑥𝑖 ) 𝑖=1 𝑖=1 Rămâne să demonstrăm partea a doua a teoremei Dacă 𝑓(𝑥) este strict convexă, egalitatea în inegalitatea de definiţie 2 10 are loc numai pentru  = 0 sau  = 1 Aceasta înseamnă că, pentru distribuţia cu două rezultate posibile, sau 𝑝1 = 0 şi 𝑝2 = 1, sau 𝑝1 = 1 şi 𝑝2 = 0 Dar aceasta înseamnă că mulţimea evenimentelor elementare se reduce la un unic rezultat şi că X este o constantă cu probabilitatea egală cu 1 TEOREMA 2 4 Fie 𝑝(𝑥𝑘 ), 𝑞(𝑥𝑘 ), 𝑘 = 1,2, ⋯ , 𝐿 două funcţii masă de probabilitate Entropia relativă 𝐷(𝑝||𝑞) este nenegativă 𝐷(𝑝||𝑞) ≥ 0 cu egalitate dacă şi numai dacă 𝑝(𝑥𝑘 ) = 𝑞(𝑥𝑘 ) pentru toţi k DEMONSTRAŢIE Fie 𝐴 = {𝑥𝑖 ∶ 𝑝(𝑥𝑖 ) ≥ 0} mulţimea suport a lui p(x) DEFINIŢIA 2 13 Mulţimea suport a unei funcţii este submulţimea domeniului ei de definiţie pe care funcţia este diferită de zero Putem scrie că 𝑝(𝑥𝑘 ) 𝑞(𝑥𝑘 ) −𝐷(𝑝||𝑞) = − ∑ 𝑝(𝑥𝑘 ) log 2 = ∑ 𝑝(𝑥𝑘 ) log 2 𝑞(𝑥𝑘 ) 𝑝(𝑥𝑘 ) 𝑥𝑘 ∈𝐴 𝑥𝑘 ∈𝐴 log2 𝑒 log2 𝑒 Fie funcţia 𝑓(𝑡) = log 2 𝑡 Avem că 𝑓 ′ (𝑡) = şi 𝑓 ′′ (𝑡) = − Conform Teoremei 2 1, 𝑡 𝑡2 funcţia log 2 𝑡 este strict concavă Aplicăm inegalitatea lui Jensen şi obţinem: 𝐿 𝑞(𝑥) −𝐷(𝑝||𝑞) ≤ log 2 ∑ 𝑝(𝑥) = log 2 ∑ 𝑞(𝑥) ≤ log 2 ∑ 𝑞(𝑥𝑘 ) = log 2 1 = 0 𝑝(𝑥) 𝑥∈𝐴 𝑥∈𝐴 𝑘=1 COROLAR Pentru oricare două variabile aleatoare X şi Y, informaţia mutuală I(X; Y) este nenegativă 𝐼(𝑋; 𝑌) ≥ 0 cu egalitate dacă şi numai dacă X şi Y sunt independente DEMONSTRAŢIE Am arătat că 𝐼(𝑋; 𝑌) = 𝐷(𝑝𝑋𝑌 (𝑥, 𝑦)||𝑝𝑋 (𝑥)𝑝𝑌 (𝑦)), iar conform cu teorem 2 3 demonstrată mai sus, aceasta este nenegativă Egalitatea are loc dacă şi numai dacă 𝑝𝑋𝑌 (𝑥, 𝑦) = 𝑝𝑋 (𝑥)𝑝𝑌 (𝑦), adică, dacă X şi Y sunt independente TEOREMA 2 5 Fie o variabilă aleatoare X al cărei domeniu de definiţie are L evenimente elementare Avem 𝐻(𝑋) ≤ log 2 𝐿, cu egalitate dacă şi numai dacă X are o distribuţie de 1 probabilitate uniformă (toate evenimentele elementare au aceeaşi probabilitate egală cu 𝐿) DEMONSTRAŢIE 1 Fie 𝑢(𝑥𝑘 ) = 𝐿 , 𝑘 = 1,2, ⋯ , 𝐿, funcţia masă de probabilitate uniformă şi fie 𝑝(𝑥𝑘 ) funcţia masă de probabilitate pentru X Avem atunci 𝐿 𝑝(𝑥𝑘 ) 𝐷(𝑝||𝑢) = ∑ 𝑝(𝑥𝑘 ) log 2 = log 2 𝐿 − 𝐻(𝑋) 𝑢(𝑥𝑘 ) 𝑘=1 Având în vedere că entropia este nenegativă, avem că 0 ≤ 𝐷(𝑝||𝑢) = log 2 𝐿 − 𝐻(𝑋) PROBLEME 1 Variabilele aleatoare de tip discret X şi Y au probabilitatea comună 𝑝𝑋𝑌 (𝑥, 𝑦) dată de Y X 𝑥0 𝑥1 1 1 𝑦0 3 3 0 1 𝑦1 3 Găsiţi: (a)H(X), H(Y) (b)H(X|Y), H(Y|X) (c)H(X,Y) (d)H(Y) – H(Y|X) (e)I(X;Y) 2 Care este cantitatea de informaţie necesară pentru a preciza poziţia unei piese pe tabla de şah? 3 Care este numărul minim de cântăriri necesare pentru a identifica o monedă falsă (mai uşoară sau mai grea) dintr-un grup de 12 monede, dacă se foloseşte o balanţă fără greutăţi? 4 O sursă discretă are alfabetul 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 , 𝑥6 , 𝑥7 , 𝑥8 } Duratele în secunde şi probabilităţile celor opt simboluri sunt {2, 2, 3, 3, 4, 4, 4, 4}, respectiv 1 1 1 1 1 1 1 1 { , , , , , , , } Să se calculeze: 4 4 8 8 16 16 16 16 (a) Entropia sursei (b) Debitul de informaţie (c) Redundanţa sursei (d) Eficienţa sursei 